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基于 文本 挖掘 的 在 线 健康 社区 用 药 咨询 研究 


杨 平 KAA 
( 湖南 工业 大 学 商学 院 ， 株 洲 412007) 


摘 要 : [ 目的 /意义 ] 在 线 健康 社区 是 人 们 获取 健康 信息 的 重要 途径 ,研究 在 线 健康 社区 用 户 用 
药 咨 询 需求 ， 有 助 于 在 线 健康 社 区 药品 服务 优化 及 可 持续 发 展 。[ 方 法 /过 程 ] 以 39 健康 网 为 例 ， 首 先 ， 
利用 Python 编码 候 取 肠胃 用 药 类 药品 的 59 048 条 用 药 咨 询 评论 ， 并 进行 预 处 理 ， 其 次 ,使 用 TF-IDF、 
TextRank、LDA 主题 模型 等 文本 挖 据 方 法 对 实验 数据 进行 主题 关键 词 挖 据 ， 并 进行 关键 词 共 现 网 络 分 析 ; 
最 后 ， 综 合 分 析 在 线 健康 社区 用 户 用 药 咨询 需求 的 主题 特征 ， 并 提出 优化 建议 。[ 结果 /结论 ] 研究 结果 
发 现在 线 健康 社区 用 户主 要 关注 药品 治疗 效果 、 服 用 方式 、 不 良 反 应 、 药 品 区 别 以 及 孕妇 等 特殊 人 群 在 
用 药 时 的 注意 事项 等 。 本 研究 一 方面 为 药品 厂商 调整 优化 药品 说 明 书 内 容 提 供 了 理论 依据 ， 另 一 方面 为 
在 线 健康 社区 优化 药品 说 明 书 内 容 布 局 以 及 建立 或 完善 药品 科普 服务 指引 了 方向 。 
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随 着 互联 网 信息 技术 的 不 断 发 展 ， 人 们 获取 健康 信息 和 知识 的 方式 不 再 局 限于 传统 的 医 患 面 
对 面 交 流 ， 互 联网 成 为 人 们 获取 健康 信息 的 便捷 途径 5。 据 中 国 互联 网 络 信息 中 心 第 52 次 《中 
国 互 联网 络 发 展 状况 统计 报告 》 显 示 5031， 截至 2023 年 6 月， 我国 互联 网 医疗 用 户 规模 达 3.64 亿 
人 ， 占 总 体 网 民 规模 的 33.8%。 “互联 网 + 医疗 ”模式 的 不 断 发 展 ， 吸 引 了 大 量 用 户 通过 在 线 健 
康 社区 (Online Health Communities， 简 称 OHCs ) 获取 医疗 健康 相关 服务 ， 常 见 的 在 线 健康 社区 
有 “39 健康 网 ”“ 寻 医 问 药 网 ”“ 好 大 夫 在 线 ” 等 ， 这 些 健康 社区 可 为 用 户 提供 药品 服务 、 预 约 
挂号 、 健 康 科普 、 疾 病 治疗 经 验 分 享 等 服务 与 信息 ， 极 大 地 方便 了 健康 社区 用 户 1。 

用 药 咨 询 是 在 线 健康 社区 中 重要 的 药品 服务 ， 当 用 户 对 药品 使 用 存在 疑惑 ， 且 通过 查阅 药品 
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说 明 书 未 得 到 解决 时 ， 便 会 向 药师 咨询 ， 这 些 咨 询 内 容 能 够 直接 反映 用 户 的 实际 用 药 需求 ， 挖 掘 
这 些 需 求 有 助 于 发 现 用 户 在 用 药 过 程 中 高 频 关 注 的 内 容 ， 进 而 为 在 线 健 康 社区 优化 药品 相关 服务 
提供 可 行 的 参考 依据 ， 有 助 于 在 线 健康 社区 的 可 持续 发 展 。 本 文 以 39 健康 网 中 肠胃 用 药 类 药品 
的 用 户 用 药 咨询 为 例 ， 通 过 词 频 统计 分 析 、 文 本 主题 特征 分 析 、 关 键 词 共 现 网 络 分 析 等 ， 发 现 用 
户 用 药 咨询 需求 主题 特征 ， 进 而 为 在 线 健康 社区 药品 服务 优化 提供 参考 建议 。 


1 相关 研究 


1.1 健康 信息 与 服务 研究 

在 线 健康 社区 是 以 互联 网 信息 技术 为 依托 ， 以 医疗 健康 为 主题 的 社交 平台 ,平台 中 入 驻 了 大 
量 的 一 般 公 众 、 患 者 及 其 看 护 人 员 、 医 生 以 及 医疗 健康 服务 机 构 等 各 类 用 户 ， 他 们 以 在 线 互动 将 
代 传统 的 面对面 交流 ， 通 过 提供 健康 服务 、 共 享 医 疗 健康 信息 、 传 播 疾 病 治疗 经 验 等 方式 优化 医 
疗 资 源 的 时 空 局 限 551。 

在 线 健 康 社区 可 为 用 户 提供 各 类 健康 信息 与 服务 ， 且 信息 与 服务 密 不 可 分 ， 两 者 相辅相成 。 
从 信息 的 发 布 者 视角 来 看 ， 在 线 健康 社区 主要 提供 两 类 信息 : 一 类 是 平台 发 布 的 信息 ， 包 括 医 
院 、 医 生 、 药 品 以 及 疾病 等 信息 ， 可 为 用 户 提供 医院 与 医生 推荐 、 电 子 预约 挂号 、 药 品 购买 和 疾 
病 查询 等 服务 ， 国 内 外 学 者 基于 在 线 健康 社区 所 提供 的 信息 ， 对 在 线 健康 社区 的 医院 与 医生 推 
荐 '"””、 疾 病 诊断 1 中 等 服务 进行 了 大 量 研 究 。 男 外 一 类 是 医生 和 患者 等 用 户 发 布 的 信息 ,一 些 
学 者 基于 医生 发 布 的 健康 科普 文章 ， 研 究 如 何 为 社区 用 户 提 供 个 性 化 的 健康 科普 推荐 服务 O, 
以 及 各 类 在 线 问 诊 和 咨询 服务 ; 还 有 一 些 学 者 根 据 患 者 发 布 的 评论 信息 ， 如 患者 向 医生 咨询 疾 
病 和 药品 、 患 者 之 间 的 经 验 分 享 以 及 情感 交流 等 ， 分 析 用 户 的 健康 信息 需求 "23 、 健 康信 息 行 
HUHS, PERRE U E, 

1.2 健康 信息 挖掘 技术 研究 

在 线 健康 社区 中 的 各 种 医疗 健康 信息 ， 是 由 社交 行为 产生 的 交互 信息 ， 大 多 数 以 文本 形式 呈 


现 ， 具 有 数据 量 大 、 结 构 复 杂 等 特点 。 如 何 挖 气 此 类 信息 的 主题 内 容 、 探 索 用 户 的 健康 信息 需求 
和 行为 ,一 直 是 学 术 界 关注 的 热点 。 


此 前 ， 对 于 信息 主题 内 容 的 挖掘 主 要 采用 内 容 分 析 、 人 工 统计 标注 的 方法 ， 如 金正 涝 等 为 了 
解 消费 者 对 于 糖尿 病 信 息 的 需求 ， 采 集 雅 虎 问答 社区 中 糖尿 病 相关 的 提问 记录 ， 通 过 人 工 编码 、 
文本 处 理 、 多 维 扩 度 分 析 、 中 心 词 聚 类 等 方法 ， 发 现 热点 主题 是 日 常 疾病 管理 、 疾 病 确诊 和 治 
Fes 施 亦 龙 等 采用 内 容 分 析 法 对 中 美 两 个 最 大 的 在 线 社区 百度 知道 和 雅虎 问答 上 采集 的 自 闭 
钙 问 答 数据 进行 分 析 ， 发 现 美国 用 户 对 于 疾病 的 基础 知识 掌握 比 中 国 用 户 好 ,提问 内 容 更 加 详细 、 
多 样 ,对 疾病 的 探索 性 提问 更 加 积极 '*1。 但 传统 的 内 容 分 析 法 和 人 工 统计 标注 需要 耗费 大 量 的 
人 力 和 时 间 成 本 ， 随 着 文本 挖掘 技术 的 不 断 成 熟 ， 越 来 越 多 的 学 者 将 文本 聚 类 算法 、LDA 主题 模 
型 等 自动 识别 技术 应 用 到 在 线 健康 社区 的 信息 挖掘 研究 中 ， 如 唐 晓 波 等 对 在 线 健康 社区 高 血压 问 
答 文本 进行 聚 类 分 析 ， 发 现 用 户 最 关心 疾病 的 治疗 、 并 发 证 和 生活 方式 等 '” ; 张 丽 等 基于 LDA 
主题 模型 、 情 感 分 析 等 ， 对 医药 电 商 在 线 评论 进行 文本 分 析 ， 控 掘 出 疫情 背景 下 消费 者 对 网 购 医 
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药 商品 的 需求 重点 与 痛 点 [201。 

1.3 用药 咨 询 研究 

用 药 咨 询 是 指 药师 应 用 药学 专业 知识 和 临床 技能 ， 对 患者 、 患 者 家 属 等 咨询 者 提供 药物 治疗 
和 合理 用 药 的 药学 服务 52 。 药 品 作为 特殊 的 商品 ， 其 安全 性 直接 影响 着 使 用 者 的 身体 健康 ， 而 
保证 安全 的 原则 之 一 就 是 合理 规范 使 用 ， 但 如 今 大 多 数 患 者 医学 素养 不 高 ， 对 于 药品 的 使 用 经 常 
存 有 疑问 ， 因 此 用 药 咨 询 就 显得 非常 重要 。 

当前 ， 用 药 咨 询 的 方式 主要 分 为 线 下 途径 和 线 上 途径 。 传 统 的 线 下 用 药 咨询 通常 是 咨询 者 去 
药店 或 医院 等 ， 药 师 对 其 进行 面对面 的 指导 ， 这 种 形式 的 指导 能 够 使 医生 获得 足够 的 信任 ， 但 通 
常 也 需要 花费 咨询 者 大 量 的 时 间 。 随 着 “互联 网 + 医疗 ”的 快速 发 展 ， 用 药 咨询 服务 逐渐 扩展 到 
在 线 平台 ， 咨 询 者 可 以 直接 通过 互联 网 向 药师 咨询 用 药 相 关 问题 ， 为 咨询 者 提供 了 极 大 便利 ， 特 
别 是 受到 新 冠 肺 炎 疫 情 的 影响 ， 人 们 更 青睐 于 足 不 出 户 的 就 医 方式 ， 因 此 在 线 用 药 咨 询 就 有 了 巨 
大 优势 ， 大 量 用 户 纷纷 尝试 。 

在 线 健康 社区 作为 “互联 网 + 医疗” 时代 的 产物 ， 同 样 具 有 在 线 用 药 咨询 功能 ， 咨 询 者 遇 到 
任何 药品 相关 问题 都 可 以 直接 通过 社区 向 药师 提问 。 目 前 ， 国 内 外 有 关 用 药 咨 询 服务 的 研究 多 聚 
焦 于 线 下 门诊 3231， 但 仍 有 一 些 学 者 对 线 上 用 药 咨 询 服务 进行 了 探索 ， 有 具体 涉及 到 用 药 咨询 服 
务 质量 管理 与 评价 、 用 药 咨询 服务 模式 等 方面 ， 如 梅 听 等 分 析 了 儿科 药师 通过 “ 问 药师 ”平台 提 
供 儿 童 用 药 咨 询 服务 的 实践 效果 ， 为 后 续 出 台 药师 参与 临床 合理 用 药 相关 规范 及 行业 法 规 提 供 了 
参考 [24]。 

综 上 所 述 ， 国 内 外 有 关 在 线 健 康 社区 健康 信息 的 研究 较为 成 熟 ， 研 究 成 果 丰 硕 ， 但 聚焦 于 药 
品 信息 和 药品 服务 的 研究 较 少 ， 而 用 药 咨 询 作为 在 线 健 康 社区 重要 的 药品 服务 ， 对 在 线 健康 社区 
的 发 展 有 着 重要 影响 。 用 户 作 为 用 药 咨 询 的 主体 ， 其 药品 咨询 内 容 能 够 直接 反映 用 药 需 求 ， 对 于 
在 线 健康 社区 服务 的 提升 有 着 重要 价值 ， 加 之 利用 文本 挖掘 技术 在 医疗 健康 领域 有 较为 成 熟 的 研 
究 基 础 ， 因 此 ， 本 研究 以 在 线 健康 社区 用 户 用 药 咨询 评论 为 研究 对 象 ， 利 用 TF-IDF、TextRank、 
LDA 主题 模型 等 多 种 文本 挖 所 方法， 并 进行 关键 词 共 现 网 络 分 析 ， 以 发 现 用 户 高 频 关 注 的 用 药 需 
求 信息 。 


2 研究 方 


nt 


本 文人 研究 方案 主要 包括 数据 采集 及 预 处 理 、 文 本 挖掘、 实验 结果 分 析 、 结 果 讨 论 等 ， 具 体 研 
究 框 架 如 图 1 所 示 。 

首先 ， 从 在 线 健康 社区 采集 用 药 咨 询 模块 用 户 评论 等 数据 ， 并 对 采集 的 数据 进行 预 处 理 ; 其 
次 ， 利 用 TF-IDF、TextRank、LDA 主题 模型 等 方法 ， 挖 掘 用 药 咨 询 评论 主题 关键 词 ; 再 次 ， 对 
用 药 咨询 评论 进行 主题 特征 分 析 ， 主 要 包括 词 频 统计 分 析 、 文 本 主题 分 析 、 关 键 词 共 现 网 络 分 析 
等 ; 最 后 ， 在 上 述 分 析 的 基础 上 ， 对 结果 进行 综合 分 析 与 讨论 。 下 面 对 数 据 采集 及 预 处 理 、 文 本 
挖掘 部 分 进行 具体 论述 。 
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药 咨 询 评论 数据 采集 


sm 


文本 挖掘 方法 


| j 药 咨询 评论 主题 特征 分 析 


词 频 统计 分 析 文本 主题 分 析 关键 词 共 现 网 络 分 析 | 


药 咨询 评论 yey 在 线 健康 社区 
主题 特征 的 药品 服务 优化 建议 


1 总 体 研 究 框架 图 


2.1 数据 采集 及 预 处理 

首先 ， 选 取 具 有 代表 性 药品 数据 库 的 在 线 健康 社区 ; 其 次 ,使 用 Python 编写 网 络 爬 虫 程序 ， 
采集 用 户 用 药 咨 询 相 关 的 信息 ; 再 次 ， 对 获取 到 的 文本 数据 进行 清洗 、 去 重复 、 分 词 和 去 停 用 词 
等 操作 ; 最 后 ， 得 到 实验 数据 集 。 

2.2 ”文本 挖掘 

本 人 研究 采用 TF-IDF, TextRank, LDA 主题 模型 等 当前 主流 的 关键 词 挖掘 方法 ， 对 实验 数据 
集 进行 文本 挖掘 ， 下 面 分 别 对 这 三 种 方法 进行 简要 介绍 。 

2.2.1 TF-IDF 算法 

TF-IDF 算法 是 一 种 基于 词 频 统计 的 加 权 技 术 ， 优 点 是 简单 快速 ， 计 算 效 率 高 ， 可 用 于 表示 
特征 项 在 整个 语料库 中 的 重要 性 ， 其 基本 思想 是 特征 项 的 重要 程度 与 在 文档 中 出 现 的 频率 成 正 
比 ， 与 在 语料库 中 出 现 的 频率 成 反比 55]。TF-IDF 算法 由 两 部 分 组 成 ， 即 TF 算法 与 IDF 算法 ， 
其 中 TF 算法 的 基本 思想 是 一 个 特征 词 在 一 个 文档 中 出 现 的 次 越 数 多 ， 则 这 个 特征 词 越 能 表达 这 
个 文档 ， 而 IDF 算法 的 基本 思想 是 一 个 特征 词 在 越 少 的 文档 中 出 现 ， 则 对 文档 的 区 分 能 力 越 强 。 
TF-IDF 算法 计算 公式 中 如 (1) 所 示 。 


TF — IDF = 词 频 CTFD)x 道 文档 频率 UDF) 
_ 其 个 特征 词 在 文档 中 出 现 的 次 数 ju。 语料库 的 文档 总 数 (1) 
文档 的 总 词 数 包含 该 特征 词 的 文档 数 + 1 


2.2.2 TextRank 算法 
TextRank 算法 是 一 种 基于 图 模型 的 排序 算法 ， 考 虑 了 词 频 与 词语 间 的 关系 ， 其 基本 思想 来 
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源 于 谷歌 的 PageRank 算法 ， 能 人 够 脱离 语料库 的 基础 ， 将 文本 转化 为 图 结构 ， 并 使 用 迭代 计算 的 
方式 计算 每 个 节点 的 权重 值 ， 权 重 值 越 大 ， 则 表示 单词 或 短语 越 重要 ' ”1。 其 计算 公式 如 (2 ) 
所 示 。 


w ji 
Treas Vi)=(1-d)+dx J, ere) (2) 
V;eln(V;) Wik 
V,.cOut(V; ) 
Hop, V VWI, d 为 阻尼 系数 ， 一 般 取 值 为 085，Im (V) 为 指向 词语 节点 V 


词语 节点 集合 ，Out V) 为 词语 节点 大 指向 的 词语 节点 集合 ，w,、w, 为 词语 节点 VB. V a 
扩 的 边 权 重 >), 

2.2.3 LDA 主题 模型 

LDA 模型 是 一 种 基于 语义 的 方法 ， 考 虑 了 上 下 文 语义 关系 。 在 利用 LDA 模型 进行 主题 挖掘 
前 ， 需 确定 提取 的 最 优 主题 数目 ， 当 前 研究 中 常 借助 困惑 度 或 一 致 性 得 分 等 方法 来 确定 最 优 主题 
数目 [»1。 本 研究 使 用 困惑 度 计算 用 药 咨询 文本 的 困惑 度 值 ， 并 绘制 困惑 度 曲 线 图 ， 从 而 确定 所 
需 提 取 的 最 优 主 题 数 。 困 惑 度 由 Blei D. M. 等 °°) 于 2003 年 提出 ， 主 要 用 于 评估 语言 模型 的 优 劣 
程度 ,虽然 较 小 的 困惑 度 得 分 意味 着 模型 对 文本 有 较 好 的 预测 作用 ， 但 是 同时 也 要 考虑 困惑 度 曲 


线 是 否 出 现 拐点 ， 以 此 来 综合 评判 合适 的 主题 数量 ， 有 具体 的 计算 公式 (3 ) 如 下 : 
Slog p(w,,) 
Perplexity(D) = exp| -— (3) 


SN 

式 中 , D 是 目标 数据 中 的 文本 文档 ，D, 表示 第 i 个 文本 文档 ，N, 表示 文档 所 有 词 项 的 总 数 ， 
p Ow) 表示 文档 集中 各 文档 的 产生 概率 。 

LDA 是 由 Blei D. M. 等 针对 早期 的 Latent Semantic Analysis(LSA) 和 Probabilistic Latent Semantic 
Analysis(PLSA) 两 种 主题 挖掘 模型 的 缺陷 所 提出 的 一 种 无 监督 机 融 学 习 技 术 ' 2， 该 模型 是 基于 
“文档 - 主题 - 词 项 ”三 层 贝 叶 斯 概率 模型 利用 概率 统计 的 思想 对 文档 进行 建 模 ， 可 自动 识别 
发 现 大 规模 文档 集 或 语料库 中 隐藏 的 主题 信息 ， 对 于 处 理 海量 文本 信息 十 分 有 效 ， 且 可 以 提高 文 
本 分 类 的 精度 OM. LDA 主题 模型 核心 表达 式 如 公式 (4) 所 示 。 


P(w|d)= P(w|t)x P(t|d) (4) 
其 中 ，w 代表 文档 中 的 一 个 词 项 ，d 代表 文档 集中 的 一 篇 文档 ，t 代表 一 个 主题 。 本 人 研究 使 用 


LDA 主题 模型 对 用 户 用 药 咨 询 文本 进行 主题 挖 气 时， 首先 ， 需 确定 3 TBR, Bla, BLK, 其 
H a =50/K, pR 0.01, 为 最 优 主题 提取 数目 ， 由 困惑 度 曲 线 求解 确定 。 
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3 ”在线 健 康 社区 用 药 咨询 分 析 


3.1 数据 获取 

39 健康 网 是 国内 领先 且 具 有 代表 性 的 在 线 健康 社区 ， 拥 有 国内 最 大 的 各 级 医院 、 医 生 、 药 
品 及 个 人 医疗 资料 数据 库 ， 因 此 本 文选 取 39 健康 网 作为 本 实验 的 数据 来 源 。39 健康 网 药品 通 功 
能 模块 下 具有 众多 类 型 的 药品 ， 例 如 镇 热 解 痛 类 、 肠 胃 用 药 类 、 呼 吸 系统 类 等 药物 。 根 据 阿里 健 
康 人 研究 院 联 合 中 康 科 技 发 布 的 《2022 线 上 用 药 趋势 白皮书 》 显 示 ， 随 着 用 户 群 体 和 用 户 健 康 需 
求 的 快速 增长 ，OTC 市 场 诞生 了 包括 肠胃 健康 等 多 个 新 趋势 赛 道 ， 另 外 根据 药 融 云 发 布 的 《 药 融 
云 2022 年 度 医药 电 商 白皮书 》， 在 线 销 售 渠 道中 ， 消 化 系统 类 用 药 占 比 最 大 ， 因 此 本 研究 选取 肠 
胃 类 药品 作为 研究 对 象 ， 具 有 更 好 的 代表 性 。 

通过 Python Fis AME REE, REE 39 健康 网 药品 通 功能 模块 下 ， 肠 胃 类 药品 中 有 关 助 消 
化 、 炎 症 、 胃 胶 疼 痛 三 类 药品 的 用 户 用 药 咨 询 评论 数据 ， 采 集 时 间 为 2023 年 10 月 12H, RE 
数据 项 包括 药品 名 称 、 用 户 病 情 描 述 、 提 问 时 间 等 ， 最 终 获得 2996 个 药品 下 的 59 048 个 用 户 评 
论文 本 。 

3.2 ”数据 预 处 理 

数据 预 处 理 主要 包括 数据 清洗 、 去 重复 、 分 词 以 及 去 停 用 词 等 操作 ， 由 于 扑 取 的 数据 较为 林 
乱 ， 存 在 大 量 不 相关 的 内 容 ， 例 如 网 站 链接 等 ， 会 影响 最 终 的 计算 结果 ， 因 此 ， 进 行 数据 清洗 非 
常 必要 。 另 外 39 健康 网 许多 同 功 能 药品 的 用 药 咨 询 内 容 完 全 一 样 ， 例 如 ， 清 开 灵 颗 粒 〈 白云 山 ) 
与 清 开 灵 颗粒 ( 远 达 ) 两 个 药品 用 药 功效 无 明显 差异 ， 二 者 药品 说 明 书 存在 区 别 ， 但 用 药 咨 询 
内 容 却 完全 相同 ， 因 此 需 进 行 去 重复 操作 。 通 过 预 处 理 ， 最 终 获得 28 250 个 用 户 评论 文本 数据 ， 
作为 本 实验 的 数据 集 。 

然后 对 实验 数据 集 进行 分 词 和 去 停 用 词 操作 。 本 研究 借助 Python 中 的 jieba 工具 进行 分 词 操 
作 ， 考 虑 到 药品 的 特殊 性 ，jieba 库 对 药品 专业 名 词 的 划分 存在 不 足 ， 因 此 将 采集 的 数据 集中 药 
品名 称 抽取 出 来 作为 jieba 新 增 词 库 ， 最 终 经 过 处 理 得 到 包括 丹 七 片 等 2298 个 药品 名 称 ， 这 样 使 
得 分 词 划分 更 加 科学 ; 去 停 用 词 操 作 ， 本 研究 综合 使 用 了 中 文 停 用 词 表 与 哈工大 、 四 川 大 学 、 百 
度 等 停 用 词 表 ， 以 及 自 定义 停 用 词 。 

3.3 ”文本 主题 特征 分 析 

本 研究 对 经 过 预 处 理 得 到 的 数据 ， 借 助 Python 编写 程序 得 到 用 药 咨询 评论 文本 的 词 云 图 ， 
以 及 TF-IDF, TextRank, LDA 主题 模型 等 挖掘 的 主题 关键 词 ， 最 后 进行 关键 词 共 现 网 络 分 析 等 。 
具体 结果 如 图 2、 图 3、 图 4 与 表 1 所 示 。 

3.3.1 词 云图 分 析 

词 云 图 为 基于 词 频 统计 分 析 的 可 视 化 结果 。 从 词 云图 可 以 看 到 ， 高 频 词 主要 有 “作用 ”“ 功 
效 ”“ 副 作用 ” “治疗 ”“ 服 用 ”“ 多 和 久 ” “效果 ”“ 区 别 ” 等 ， 因 此 在 线 健康 社区 用 户 用 药 咨 询 评 论 
主要 涉及 药品 的 作用 效果 、 服 用 方式 、 副 作用 等 不 良 反 应 以 及 药品 区 别 等 方面 。 特 别 地 ， 对 于 药 
品 作用 、 效 果 、 功 效 等 有 关 药 品 有 效 性 的 问题 描述 最 多 。 
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2 ”用户 用 药 咨 询 关键 词 词 云图 


3.3.2 文本 主题 关键 词 分 析 

本 研究 计算 用 药 咨 询 评论 文本 排名 前 10 的 主题 关键 词 及 各 自 的 TF-IDF 值 与 TextRank 值 ， 
利用 LDA 模型 进行 主题 提取 前 ， 需 计算 困惑 度 以 确定 最 优 的 主题 个 数 ， 经 过 计算 并 绘制 困惑 度 
曲线 图 ， 如 图 3 所 示 ， 发 现 主题 数 为 5 时， 困惑 度 最 低 ， 并 且 为 拐点 ， 因 此 最 优 主题 数 选择 5 较 
为 合适 。 然 后 利用 gensim 工具 计算 评论 文本 的 LDA 分 布 ， 并 设置 参数 a =50/K, B -=0.01， 最 优 
主题 数 K H 5, WRZ passes=100， 并 提取 每 个 主题 下 的 前 10 个 关键 词 输出 结果 。 最 终 得 到 
用 药 咨 询 评论 文本 主题 关键 词 结果 如 表 1 所 示 。 


主题 建 模 -困惑 度 


1 2 3 4 5 6 7 
主题 数目 


3 ”主题 困惑 度 曲 线 


表 1 用 药 咨 询 主题 关键 词 提取 结果 


| 


“功效 ”: 0.29，“ 副 作用 ”: 0.20，“ 服 用 ”: 0.17，“ 作 用 ”: 0.17，“ 治 疗 ”: 0.11，“ 多 久 ”: 


0.10, “BOR” : 0.07，“ 区 别 ”: 0.07，“ 拉 肚子 ”; 0.05，“ 健 胃 消 食 片 ”: 0.04 
TextRank “Ue”; 1.0, “FEF” ; 0.99, “ARH” : 0.59, “RIVER” : 0:54, “Yar” : 0.53, “sue” ; 
O83, “RSH? ¢ O85, ia s OM, “FRE a OO, CEE? 2 O10 
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续 表 


方法 评论 主题 


Topicl: 0.047*“ 功 效 ” + 0.027*“ 服 用 ” + 0.020* “Yar” + 0.016*“ 作 用 ” + 0.013% “HEIL” + 
0.011* “效果 ”+ 0.011*“ 区 别 ” + 0.008*“ 有 用 吗 ” + 0.008*“ 阿 莫 西 林 ” + 0.008*“ 多 久 ” 


Topic2: 0.046*“ 作 用 ” + 0.040*“ 功 效 ” + 0.031* “RIVET” +0.026* “ZA” + 0.019*“ 治 疗 ” + 
0.018*“ 健 胃 消 食 片 ” + 0.015* “服用” + 0.014*“ 效 果 ” + 0.013*“ 区 别 ” + 0.009*“ 注 射 用 ” 


Topic3: 0.035*“ 作 用 ” + 0.026* “服用” + 0.025* “治疗 ” + 0.025* “功效 ” + 0.019*“ 副 作用” + 
0.016* “区别 ”+ 0.012*“ 昔 香 正气 水 ” + 0.009*“ 肠 溶 片 ”+ 0.009* “哺乳 期 ” + 0.009*“ 氧 氟 沙 星 ” 


LDA 


Topic4: 0.035*“ 作 用 ” + 0.022*“ 副 作用 ” + 0.017* “功效 ” + 0.016*“ 服 用 ” + 0.015* “区 别 ” + 
0.014* “ZA” + 0.014*“ 香 砂 养 胃 九 ”+ 0.012*“ 胃 痛 ” + 0.012*“ 治 疗 ”+ 0.011*“ 维 生 素 ” 


TopicS: 0.057*“ 功 效 ” + 0.054*“ 作 用 ” + 0.038*“ 副 作用 ” + 0.029*“ 服 用 ” + 0.023* “效果 ” + 
0.015* “治疗 ”+ 0.014% “多 少 钱 ” +0.013* “AR” +0.011* “BA” +0.011* “HEY” 


由 表 1 可 见 ， 首先 ，TF-IDF 和 TextRank 提取 的 关键 词 ， 以 及 LDA 提取 的 各 个 主题 的 关 
键 词 ， 存 在 非常 高 的 相似 性 ， 均 包含 “功效 ”"”“ 治 疗 ”“ 作 用 ”“ 效 果 ”“ 副 作用 ”“ 区 别 ” 等 
词 ， 因 此 药品 的 作用 效果 、 是 否 有 副作用 以 及 药品 之 间 的 区 别 等 是 咨询 者 高 频 关 注 的 内 容 。 其 
次 ，LDA 主题 模型 提取 的 五 个 主题 之 间 存 在 较 高 的 相似 性 ， 通 过 观察 很 难看 出 每 个 主题 所 代表 
的 内 容 ， 但 是 观察 每 个 主题 之 间 的 差异 ， 发 现 药品 的 不 同 是 主题 呈现 差异 的 关键 因素 ， 从 侧面 
也 反映 出 ， 无 论 是 何 种 药品 ， 用 户 用 药 咨 询 的 内 容 通常 涉及 到 药品 的 作用 功效 、 服 用 方式 、 药 
品 区 别 以 及 药品 价格 等 方面 。 最 后 ， 综 合 表 1 结果 ， 可 将 用 户 用 药 咨询 内 容 归 纳 为 以 下 几 个 方 
面 : 药品 治疗 效果 方面 “功效 "”“ 作 用 ” 治疗”“ 多 和 久 ” “效果 ”等 词 高 频 出 现 ， 反 映 了 用 户 对 
药品 使 用 效果 的 关注 ; 药品 种 类 方面 ,“ 健 胃 消 食 片 ”“ 遂 遥 丸 ”“ 阿 莫 西 林 ”“ 黎 香 正气 水 ”“ 氧 
气 沙 星 ”“ 香 砂 养 骨 九 ”等 药品 是 患 有 肠胃 疾病 用 户 常 咨询 的 药物 品种 ; 疾病 类 型 方面 ,“ 拉 
肚子 ”“ 胃 炎 ”“ 胃 痛 ” 等 词 反 映 了 咨询 者 常 伴 有 拉肚子 、 胃 疼 等 疾病 症状 ; 而 “服用 ”“ 副 作 
用 ”“ 区 别 ” 等 词 高 频 出 现 ， 则 分 别 反 映 了 用 户 对 于 药品 服用 方式 、 药 物 不 良 反 应 、 药 品 区 别 等 
内 容 的 关注 。 

3.3.3 关键 词 共 现 网 络 分 析 

通过 词 云 图 分 析 和 文本 主题 关键 词 分 析 ， 可 以 发 现 用 户 用 药 咨 询 的 关键 内 容 ， 但 无 法 发 现 
不 同 关键 词 之 间 的 关联 强度 ， 本 研究 使 用 关键 词 共 现 网 络 以 进一步 发 现 主题 关键 词 之 间 的 内 在 
联系 。 关 键 词 共 现 网 络 分 析 是 一 种 计算 文本 中 多 个 关键 词 同 时 出 现 的 频次 ， 以 此 判断 它们 之 间 
的 相似 性 关系 并 进行 分 析 的 研究 方法 2 ， 其 特点 是 以 高 频 关 键 词 为 节点 ， 以 节点 两 两 之 间 的 
共 现 关系 为 基础 ， 将 词 与 词 之 间 的 关系 数值 化 处 理 ， 再 通过 图 形 化 的 方式 揭示 词 与 词 之 间 的 结 
构 关 系 。 使 用 Python 将 用 药 咨询 文本 进行 分 词 ， 抓 取 关 键 词 ， 并 生成 共 词 矩阵 ; 再 筛选 出 现 频 
次 前 25 的 关键 词 进行 共 现 分 析 ， 并 利用 Ucinet 软件 的 NetDraw 可 视 化 功能 绘制 关键 词 共 现 网 
络 ， 结 果 如 图 4 所 示 。 图 中 节点 表示 高 频 关 键 词 ， 节 点 越 大 表示 出 现 的 频次 越 高 ， 节 点 与 节点 
之 间 的 连 线 表 示 两 个 关键 词 的 共 现 关系 ， 连 线 越 粗 ， 表 示 关 键 词 两 两 共 现 的 次 数 越 多 ， 联 系 越 
密切 。 
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图 4 用 药 咨 询 关 键 词 共 现 网 络 


图 4 中 “功效 ”“ 作 用 ”“ 副 作用 ”“ 服 用 ”“ 治 疗 ”“ 效 果 ” 等 词 是 整个 网 络 的 重要 节点 ， 
是 咨询 者 在 用 药 咨 询 过 程 中 核心 咨询 的 内 容 。 根 据 关键 词 共 现 网 络 ， 咨 询 内 容 主 要 体现 在 以 下 
几 个 方面 : 药品 有 效 性 方面 “服用 ”与 “功效 "”“ 作 用 ” “效果 ”等 词 联系 密切 ， 说 明 咨询 者 非 
常 关注 药品 服用 后 的 效果 ; 药品 安全 性 方面 “不 良 ” 与 “反应 ” “服用 ”与 “副作用 ”等 词组 
联系 密切 ， 反 映 了 咨询 者 较为 关注 药品 服用 后 是 否 存在 不 良 反 应 以 及 副作用 等 安全 性 问题 ; 服 
用 方式 方面 ，“ 饭 前 ”“ 饭 后 ” “功效 "“ 作 用 ”等 词 联系 紧密 ， 可 见 咨询 者 对 于 药品 服用 方式 较 
为 关注 ; 适用 人 和 群 方面 ， 儿 童 和 孕妇 属于 药品 使 用 的 特殊 人 群 ， 在 药物 使 用 方面 存在 诸多 注意 
事项 ， 图 4 中 “孕妇 ”一 词 的 出 现 ， 反 映 了 孕妇 这 类 人 和 群 在 使 用 药物 时 经 常会 咨询 药师 ， 以 便 
安全 用 药 。 

3.4 ”实验 结果 讨论 与 建议 

综合 以 上 实验 分 析 结 果 ， 发 现 用 户 用 药 咨 询 内 容 主 要 涉及 药品 治疗 效果 、 服 用 方式 、 不 良 反 
应 、 药 品 区 别 以 及 孕妇 等 特殊 人 和 群 在 用 药 时 的 注意 事项 等 内 容 。 

本 文 结合 实验 结果 与 在 线 健康 社区 实际 运营 方式 ， 对 在 线 健 康 社区 优化 药品 服务 提出 一 些 建 
议 。 首 先 ， 用 户 在 购买 或 者 使 用 药品 前 ,通常 会 优先 查阅 药品 说 明 书 ， 而 用 药 咨询 只 是 平台 为 用 
户 提供 药品 相关 咨询 的 补充 服务 ， 但 本 文 实验 发 现 ， 虽 然 药 品 治疗 效果 、 服 用 方式 、 药 物 不 良 反 
应 等 核心 内 容 ， 药 品 说 明 书 均 会 对 此 作出 说 明 , 但 用 户 仍然 会 去 问 药师 ， 侧 面 表明 药品 说 明 书 仍 
有 优化 空间 ， 因 此 在 线 健康 社区 及 医药 企业 可 对 药品 说 明 书 中 药物 作用 效果 、 服 用 方式 、 药 物 不 
良 反应 等 用 户 高 度 关 心 的 内 容 进行 补充 ， 尽 可 能 对 用 户 实际 用 药 中 的 问题 进行 解答 ， 进 而 缓解 药 
师 解 答 咨询 的 压力 ; 其 次 ， 在 线 健康 社区 可 对 药品 说 明 书 布局 进行 优化 ， 药 品 说 明 书 内 容 多 ， 且 
较为 专业 化 ， 可 对 有 关 药 物 作 用 效果 、 服 用 方式 、 注 意 事项 等 内 容 进 行 突 出 显示 ， 使 得 用 户 一 目 
了 然 ; 最 后 ， 在 线 健康 社区 可 使 用 本 实验 的 研究 方法 挖 据 用 户 关 注 的 问题 ， 并 据 此 建立 或 完善 药 
品 科普 宣传 服务 。 
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本 人 研究 采集 39 健康 网 药品 通 功 能 模块 下 肠胃 类 药品 中 有 关 助 消化 、 炎 症 、 胃 腕 疼痛 等 三 种 
药品 的 用 户 用 药 咨询 评论 数据 ， 通 过 词 频 统 计 分 析 、 文 本 主题 特征 分 析 、 关 键 词 共 现 网 络 分 析 ， 
以 发 现 用 户 在 药物 使 用 过 程 中 最 为 关心 的 问题 。 人 研究 结果 表明 ， 在 线 健康 社区 用 户 对 于 药品 作用 
效果 、 服 用 方式 、 不 良 反 应 、 药 品 区 别 以 及 和 孕妇 等 特殊 人 群 在 用 药 时 的 注意 事项 等 方面 的 内 容 较 
为 关注 。 研 究 结 果 一 方面 为 药品 厂商 调整 优化 药品 说 明 书 提供 了 理论 依据 ， 男 一 方面 为 在 线 健康 
社区 优化 药品 说 明 书 内 容 布局 以 及 建立 或 完善 药品 科普 内 容 指引 了 方向 。 
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A Study of Online Health Community 
Medication Counseling Based on Text Mining 


Yang Ping Xiao Yigui 


(College of Business , Hunan University of Technology, Zhuzhou 412007, China) 


Abstract: [ Purpose/Significance ] Online health community has become an important way for people to 
obtain health information, and studying the demand of medication consultation of online health community 
users contributes to the optimization and sustainable development of online health community drug service. 

[ Method/Process ] Taking 39Health.com as an example, firstly, 59,048 medication consultation comments 
of gastrointestinal medicines are crawled using Python coding and pre-processed; secondly, the experimental 
data are subjected to theme keyword mining using text mining methods such as TF-IDF, TextRank, and LDA 
topic model, and keyword co-occurrence network analysis is carried out; lastly, a comprehensive analysis of 
the online health community users’ medication consulting needs of the theme characteristics, and put forward 
optimization suggestions. [ Result/Conclusion ] The results of this study show that online health community 
users are mainly concerned about the therapeutic effect of drugs, the way of taking drugs, adverse reactions, 
the difference between drugs, and the precautions to be taken during pregnant women and other special groups 
using drugs. This study provides a theoretical basis for drug manufacturers to adjust and optimize the content 
of drug manuals, and on the other hand, it provides a direction for online health communities to optimize the 
content layout of drug manuals and to establish or improve drug popularization services. 


Keywords: Online health communities; Medication counseling; Text mining 
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